近日Google研究人員發表一篇說明SEED RL框架的文章,該架構可將人工智慧(AI)模型的訓練擴及數千個機器。並且促進每個機器達到每秒訓練數百萬個框架的速度,同時減少80%的成本,可望為過去無法與大型AI實驗室競爭的新創公司帶來平等的發展機會。
在雲端進行複雜的機器學習非常昂貴。華盛頓大學曾經為了訓練用來製作/辨別假新聞的AI模型Grover,在兩週內花費了25,000美元。人工智慧研究組織OpenAI每小時支付256美元來訓練語言模型GPT-2,而Google支出大約6912美元訓練雙向轉換器模型BERT,用以重新定義11種自然語言處理任務的最新狀況。
SEED RL建構在Google的TensorFlow 2.0框架之中,透過集中模型使用圖形卡與張量處理器(tensor processing units, TPU)。為了避免遇到數據傳輸瓶頸,其使用分散式推論(distributed inference)訓練模型的學習元件,集中執行AI推論。目標模型的變量和狀態資訊保留在原本的位置,而每個步驟的觀察結果則會回傳給學習者,並且基於開源的通用RPC框架網路庫,維持在延遲最低的狀況。
為了評估SEED RL,研究團隊在常見的Arcade環境,以及DeepMind實驗室/Google Research Football三種環境中進行基準測試。團隊表示,他們解決了在Google Research Football中未解決的任務,並透過64個雲端TPU核心,達到每秒240萬幀的處理速度,此成果是目前最先進的分散式代理人機制的80倍。